尽管计算高昂和沟通成本,牛顿型方法仍然是分布式培训的吸引人选择,因为它们对不良条件的凸问题进行了稳健性。在这项工作中,我们研究了通信压缩和曲率信息的聚合机制,以降低这些成本,同时保留理论上优越的局部收敛保证。我们证明了Richtarik等人最近开发的三点压缩机(3PC)类。 [2022]对于梯度交流也可以推广到Hessian通信。该结果开辟了各种各样的沟通策略,例如承包压缩}和懒惰的聚合,可用于压缩过高的成本曲率信息。此外,我们发现了几种新的3PC机制,例如自适应阈值和Bernoulli聚集,这些机制需要减少通信和偶尔的Hessian计算。此外,我们扩展和分析了双向通信压缩和部分设备参与设置的方法,以迎合联合学习中应用的实际考虑。对于我们的所有方法,我们得出了与局部无关的局部线性和/或超线性收敛速率。最后,通过对凸优化问题进行广泛的数值评估,我们说明我们的设计方案与使用二阶信息相比,与几个关键基线相比,我们的设计方案达到了最新的通信复杂性。
translated by 谷歌翻译
最近对SGD的理论理解的进步导致了最佳批量尺寸的公式,最小化有效数据通行证的数量,即迭代次数的批次大小的数量。然而,该公式具有实用的价值,因为它取决于在最佳评估的随机梯度方差的知识。在本文中,我们设计了一种实用的SGD方法,能够在整个迭代中自适应地学习最佳批量尺寸,以强烈凸起和平滑的功能。我们的方法可以证明,在我们的综合性和实际数据的实验中,易于展示了几乎最佳的行为;也就是说,它可以适用于最佳批次大小已知a-priori。此外,我们之前概括了我们之前在文献中未考虑的几种新批次策略的方法,包括适合分布式实施的采样。
translated by 谷歌翻译